home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group93b.txt / 000120_icon-group-sender _Fri May 28 07:54:02 1993.msg < prev    next >
Internet Message Format  |  1993-06-16  |  6KB

  1. Received: from owl.CS.Arizona.EDU by cheltenham.CS.Arizona.EDU; Fri, 28 May 1993 08:54:23 MST
  2. Received: by owl.cs.arizona.edu; Fri, 28 May 1993 08:54:21 MST
  3. Message-Id: <9305281446.AA47196@enlil.premenos.sf.ca.us>
  4. From: Ken Walker <kwalker@shara.premenos.sf.ca.us>
  5. Subject: Re: String uniqueness
  6. To: icon-group@cs.arizona.edu
  7. Date: Fri, 28 May 93 7:54:02 PDT
  8. In-Reply-To: <668400@MTS.cc.Wayne.edu>; from "Paul_Abrahams@MTS.cc.Wayne.edu" at May 27, 93 6:17 pm
  9. Mailer: Elm [revision: 66.25]
  10. Status: R
  11. Errors-To: icon-group-errors@cs.arizona.edu
  12.  
  13. > Paul Abrahams <abrahams@acm.org>
  14. >
  15. > Does the Icon implementation store strings uniquely?  I'm interested
  16. > in knowing because it clearly affects the speed of string comparison
  17. > and therefore the strategy for storing "symbols".  If they are stored
  18. > uniquely, I assume, string comparison is just comparison of a single
  19. > pointer; if not, it requires scanning the strings character by character.
  20.  
  21. No, strings are not stored uniquely. While clearly a win in some
  22. situations, I seem to recall that doing this all the time in a general
  23. language setting slows things down. Unfortunately, I don't have references
  24. to back up the claim.
  25.  
  26. Ken Walker, kwalker@premenos.sf.ca.us
  27.  
  28.  
  29. ed
  30. for generally available, flexible text software. Commercial software
  31. for text analysis and manipulation covers only a fraction of
  32. research needs, and it is often expensive and hard to adapt or
  33. extend to fit a particular research problem. Software developed by
  34. individual researchers and labs is often experimental and hard to
  35. get, hard to install, under-documented, and sometimes unreliable.
  36. Above all, most of this software is incompatible.
  37.  
  38. As a result, it is not at all uncommon for researchers to develop
  39. tailor-made systems that replicate much of the functionality of
  40. other systems and in turn create programs that cannot be re-used by
  41. others, and so on in an endless software waste cycle. The
  42. reusability of data is a much-discussed topic these days; similarly,
  43. we need "software reusability", to avoid the re-inventing of the
  44. wheel characteristic of much language-analytic research in the past
  45. three decades.
  46.  
  47. The Text Software Initiative (TSI) is committed to solving this
  48. problem by working to
  49.  
  50.      o establish and publish guidelines and standards for the
  51.        development of text software;
  52.  
  53.      o promulgate and coordinate the development of free TSI-
  54.        conformant software.
  55.  
  56. The scope of the TSI covers all areas of analysis and manipulation
  57. of all kinds of texts (written or spoken, mono-lingual or multi-
  58. lingual parallel, etc.), including markup of physical and logical
  59. text features, linguistic analysis and annotation, browsing and
  60. retrieval, statistical analysis, and other text-related tasks in
  61. research in computational linguistics, humanities computing,
  62. terminology and lexicography, speech, etc.
  63.  
  64. The TSI software development effort is distributed, that is, anyone
  65. can contribute on a voluntary basis. This means that tools will be
  66. developed according to the contributors' priorities; however, the
  67. TSI is ultimately working towards the development of a comprehensive
  68. text handling system.
  69.  
  70. To ensure software compatibility and reusability and enable
  71. distributed development, the TSI is committed to:
  72.  
  73.      o design and publish program interface conventions
  74.      o determine and publish guidelines for programming style and
  75.        documentation
  76.      o stress separation of code and linguistic data to ensure
  77.        (natural) language independence
  78.      o emphasize breaking high-level text-handling tasks into
  79.        more primitive, reusable functions
  80.      o provide a library of primitive text-handling tools
  81.      o maintain a task list and set priorities
  82.      o circulate information such as progress reports, revisions to
  83.        the standard, availability of new software, etc.
  84.      o set up a mechanism for testing and evaluation
  85.      o maintain mailing lists for comments, bug reports,
  86.        suggestions, etc.
  87.  
  88. The TSI works in relation with other standardization groups, notably
  89. the Text Encoding Initiative and the Expert Advisory Group on
  90. Language Engineering Standards (EAGLES).
  91.  
  92. All TSI software is free in the sense defined in the Free Software
  93. Foundation's General Public License, which guarantees the freedom to
  94. copy, redistribute, and modify software, and protects this freedom
  95. by requiring those who pass on the software to include the rights to
  96. further redistribute it and see and change the code.
  97.  
  98. Distribution of TSI software is accomplished in relation with other
  99. dissemination groups such as the Free Software Foundation, RELATOR,
  100. and the Linguistic Data Consortium. The TSI does not provide
  101. technical support, but organizes a network of voluntary consultants
  102. and support people.
  103.  
  104.  
  105. PROJECT COORDINATORS
  106.  
  107. Nancy Ide, Vassar College, Poughkeepsie, New York, USA
  108. ide@cs.vassar.edu
  109.  
  110. Jean Veronis, Universite de Provence/CNRS, Aix-en-Provence, France
  111. veronis@grtc.cnrs-mrs.fr
  112.  
  113.  
  114. GENERAL ADVISORY BOARD
  115.  
  116. Susan Armstrong, ISSCO, Geneva
  117. Mark Liberman, Linguistic Data Consortium, University of Pennsylvania
  118. Makoto Nagao, Kyoto University
  119. Mark Olsen, ARTFL Project, University of Chicago
  120. Richard Stallman, Free Software Foundation, Cambridge, Massachusetts
  121. Donald Walker, Bellcore, Morristown New Jersey
  122. Antonio Zampolli, Istituto di Linguistica Computazionale, Pisa
  123.  
  124.  
  125. The TSI also includes a TECHNICAL ADVISORY BOARD of software
  126. developers.
  127.  
  128.  
  129.  
  130.  
  131.  
  132.